#Libs
import pandas as pd
import pandas_profiling
#Seleção de features
from sklearn.decomposition import PCA
#Carregando dataset
df = pd.read_csv('../input/train.csv')
#Formato do DataFrame
df.shape
#Colunas com valores NA
print([x for x in df.isnull().sum() > 0 if x])
#Observando o nome de algumas variáveis
df.columns[:20]
#Agrupamos as variáveis pela primeira palavra antes da ocorrência do caracter _
colgroups = list(set([x.split('_')[0] for x in df.columns]))
sorted(colgroups)
#Carregando dataframes por tipo
df_delta = df.filter(regex='^delta')
df_imp = df.filter(regex='^imp')
df_ind = df.filter(regex='^ind')
df_num = df.filter(regex='^num')
df_saldo = df.filter(regex='^saldo')
df_var = df.filter(regex='^var')
df_delta.profile_report()
Nenhuma destas variáveis serão selecionadas
df_imp.profile_report()
Variáveis numéricas contínuas selecionadas:
df_ind.profile_report()
Variáveis booleanas selecionadas:
df_num.profile_report()